Planteamiento del problema

La accidentalidad en Medellín es un problema actual en el cual como ciudadanos debemos buscar soluciones para disminuir los incidentes viales.El objetivo de este trabajo es predecir la accidentalidad en la ciudad de Medellín mediante modelos predictivos para pronosticar la accidentalidad por clase de accidente a nivel diario, semanal, mensiual y anual. Los datos fueron obtenidos de la base de datos incidentes viales del portal MetaData suministrada por la Secretaría de Movilidad de la Alcaldía de Medellín en la cual se encuentran accidentes de tránsito desde julio del 2014 hasta agosto del 2020.

Esta base de datos se descargó el 8 de noviembre del 2021 en formato CSV y tiene como fecha de actualización 6 de marzo del 2021. El total de registros de la base de datos es de 270765 contenidas 17 variables, las cuales son las siguientes:

Además para los modelos predictivos se agregarón como variable sindicadores los dias festivos y ferias. En las ferias seincluyen dias como feria de flores, festival internacional del tango, festival internacional del Jazz y festival del humor.

Tratamiento de datos.

El preprocesamiento, limpieza y depuración de la base de y todo el codigo para el desarrollo de este proyecto se encuentra en el siguiente link.

Información faltante por variable
x
AÑO 26760
CBML 19118
CLASE_ACCIDENTE 6
DIRECCION 0
DIRECCION ENCASILLADA 391
DISEÑO 1148
EXPEDIENTE 110
FECHA_ACCIDENTE 6
FECHA_ACCIDENTES 0
GRAVEDAD 0
MES 0
NRO_RADICADO 37
NUMCOMUNA 0
BARRIO 19006
COMUNA 12798
LOCATION 0
X 0

Intervención a las variables

  • Para mejorar la base de datos se modificaron registros que estaban escritos incorrectamente en las siguientes variables: CLASE_ACCIDENTE, DISEÑO,COMUNA, BARRIO y GRAVEDAD.

  • La variable FECHA_ACCIDENTES se modificó en formato año-mes-día-hora-minutos-segundos y se añadieron las variables DIA, MES, AÑO, HORA, DIA_MES, SEMANA y DIA_AÑO.

  • En COMUNA la información suministrada como (0, AU, IN, SN, No Georef, Sin Inf) se asignó como NA.

  • La variable BARRIO se encontró que algunos aparecen con sus nombres y otros con su número, por medio de una base de datos externa de la Alcaldía de Medellín verificada por el Departamento Nacional de Planeación se reemplazaron los números y se asignó su respectivo nombre. Para el análisis solo se tuvo en cuenta los barrios excluyendo a los corregimientos.

  • La variable LOCATION se separó en dos variables LATITUD y LONGITUD. Las coordenadas 6.22141524356,-75.7037762763 de la variable LOCATION se encuentrán fuera de Medellín, por tanto no se tuvieron en cuenta en el desarrollo del trabajo.

  • En la variable CLASE_ACCIDENTE las categorías incendio y volcamiento se agregaron a la clase Otro. En consecuencia, esta variable queda con las siguientes categorias: Atropello, Caída Ocupante, Choque y Otro.

Finalmente la base de datos limpia contiene 242533 registros y 16 variables que son: CLASE_ACCIDENTE, GRAVEDAD, DISEÑO, COMUNA, BARRIO, LATITUD, LONGITUD, FECHA_ACCIDENTES, FECHA_ACCIDENTE, AÑO, MES, DIA_MES, SEMANA, DIA, DIA_AÑO y HORA. El 10.43% es el porcentaje de la información de los datos originales que no se tuvo en cuenta para la realización del trabajo.

  • Estructura de la base de datos depurada
## 'data.frame':    242533 obs. of  16 variables:
##  $ CLASE_ACCIDENTE : chr  "Otro" "Choque" "Choque" "Otro" ...
##  $ GRAVEDAD        : chr  "Con heridos" "Con heridos" "Con heridos" "Con heridos" ...
##  $ DISEÑO          : chr  "Tramo de via" "Interseccion" "Tramo de via" "Tramo de via" ...
##  $ COMUNA          : chr  "Laureles Estadio" "Castilla" "El Poblado" "Villa Hermosa" ...
##  $ BARRIO          : chr  "Los Conquistadores" "Girardot" "Patio Bonito" "Villa Hermosa" ...
##  $ LATITUD         : num  6.24 6.3 6.21 6.26 6.25 ...
##  $ LONGITUD        : num  -75.6 -75.6 -75.6 -75.6 -75.6 ...
##  $ FECHA_ACCIDENTES: chr  "2014-08-05 07:15:00" "2014-08-05 14:30:00" "2014-08-05 15:50:00" "2014-08-05 13:00:00" ...
##  $ FECHA_ACCIDENTE : chr  "2014-08-05" "2014-08-05" "2014-08-05" "2014-08-05" ...
##  $ AÑO             : int  2014 2014 2014 2014 2014 2014 2014 2014 2014 2014 ...
##  $ MES             : int  8 8 8 8 8 8 8 8 8 8 ...
##  $ DIA_MES         : int  5 5 5 5 5 5 5 5 5 5 ...
##  $ SEMANA          : int  31 31 31 31 31 31 31 31 31 31 ...
##  $ DIA             : chr  "Mar" "Mar" "Mar" "Mar" ...
##  $ DIA_AÑO         : int  217 217 217 217 217 217 217 217 217 217 ...
##  $ HORA            : num  7.25 14.5 15.83 13 19.5 ...

Análisis descriptivo

Encabezado de datos
CLASE_ACCIDENTE GRAVEDAD DISEÑO COMUNA BARRIO LATITUD LONGITUD FECHA_ACCIDENTES FECHA_ACCIDENTE AÑO
Otro Con heridos Tramo de via Laureles Estadio Los Conquistadores 6.239787 -75.58931 2014-08-05 07:15:00 2014-08-05 2014
Choque Con heridos Interseccion Castilla Girardot 6.300041 -75.57082 2014-08-05 14:30:00 2014-08-05 2014
Choque Con heridos Tramo de via El Poblado Patio Bonito 6.208748 -75.57657 2014-08-05 15:50:00 2014-08-05 2014
Otro Con heridos Tramo de via Villa Hermosa Villa Hermosa 6.259058 -75.55125 2014-08-05 13:00:00 2014-08-05 2014
Choque Con heridos Tramo de via La Candelaria Los Ángeles 6.249966 -75.55615 2014-08-05 19:30:00 2014-08-05 2014
Atropello Con heridos Tramo de via Aranjuez Manrique Central No.1 6.265270 -75.55540 2014-08-05 11:30:00 2014-08-05 2014

Causa y gravedad en accidentes

  • Se encuentrá que la mayor causa de accidentes es por choques.

  • Los accidentes con heridos son mayormente causados por choques y otras causas

  • La frecuencia de accidentes donde involucra muertes es muy inferior comparativamente con las demás categorías de gravedad.

Comportamiento de accidentes segun fechas.

  • Se visualiza que se presenta una mayor accidentabilidad los días Martes,Miércoles,jueves y viernes.Se infiere que el día viernes se presenta mayor accidentabilidad porque comienza fin de semana provocando más movilidad en la ciudad de Medellín y el día domingo disminuye notablemente la accidentabilidad en el cual muchas personas no laboran y hay menos flujo vehicular.

  • En el mes de agosto y julio es donde el número de accidentes es superior , en julio esto puede darse por el periodo de vacaciones y en agosto por algunos eventos relacionados con feria de flores.En enero, abril y junio se presenta la menor accidentabilidad.

  • En el año 2016 se presentó la mayor accidentabilidad, El número de accidentes para el 2020 es bajo debido a la crisis sanitaria que afrontaba el mundo por motivos del COVID-19 y se debe tener en cuenta que los registros en este año solo son hasta el 31 de agosto.

  • Durante el dia, el mayor número de accidentes ocurren en las hora pico, alrededor de las 6am, 12pm y 6pm.

Predicción

Para la predicción del número de acciedentes se usarón técnicas de regresión como: Lasso, Ridge, Poisson y Arboles. Para seleccionar el modelo adecuado se usó como métrica el error cuadrático medio ECM. El objetivo es encontrar un modelo que el ECM en los datos de prueba no sea superado en un 15% por el ECM de los datos de entreno.

Cada una de las regresiones se usó para modelar el número de accidentes de acuerdo a las clases de accidentes (atropello,caída de ocupante,choque y otro).

Los modelos ganadores fueron los siguientes: - Caída de ocupante: Regresión Poisson. - Atropello: Regresión Poisson. - Choque: Regresión Ridge, - Otro: Regresión Ridge

En cada uno de los modelos se observó que el ECM de las predicciones para el año 2020 son superiores a lo encontrado en el conjunto de datos de entreno y prueba. Esto se debe a que el confinamiento implicó que el número de vehiculos en circulación por la ciudad disminuyera ocasionando una reduccion en la accidentabilidad. Este cambio estructural causado por la pandemia trae como consecuencia una sobreestimación en la predicción.

Datos de entrenamiento y validación

Los datos de entrenamiento para los modelos predictivos son los registros de accidentes de los años 2014,2015,2016 y 2017. Para validar los modelos se usan los accidentes de los años 2018 y 2019.

Modelo para Caída de ocupante

En la categoría Caída de ocupante el mejor modelo predictivo es el modelo de arboles de regresion.

  • El ECM para cada uno de los modelos propuestos se muestra a continuación.
ridge lasso poisson rp
9.379692 10.06574 8.635855 8.305773
10.963564 11.62927 8.926744 7.462197
9.325817 10.54020 6.494703 6.418676

Modelo para Atropello

En la categoría Atropello el mejor modelo predictivo es el modelo de regresión poisson, la ecuación del modelo ajusttado se presenta a continuación.

\[Casos_{Atropello, i}=Exp(\beta_{0}+\beta_{1,k}\cdot GRAVEDAD_i+\beta_{2,m}\cdot DISEÑO_i+\beta_3\cdot AÑO+\\ \beta_4 \cdot MES+\beta_{5,p}\cdot DIA+\beta_6\cdot SEMANA+\beta_7\cdot DIAMES+\beta_8\cdot FERIA+\beta_9\cdot FESTIVO)\]

El resumen de los parámetros ajustados se muestra en la siguiente tabla.

Fitting generalized (poisson/log) linear model: CASOS ~ .
  Estimate Std. Error z value Pr(>|z|)
(Intercept) 252 16.88 14.93 2.245e-50
GRAVEDADCon muertos 0.1503 0.2146 0.7004 0.4837
DISEÑOGlorieta -0.2017 0.2063 -0.9774 0.3284
DISEÑOInterseccion 0.2282 0.1358 1.681 0.09273
DISEÑOLote o Predio 0.3205 0.1373 2.334 0.01961
DISEÑOOtro -0.2329 0.2471 -0.9426 0.3459
DISEÑOPaso Elevado -0.07035 0.2652 -0.2653 0.7908
DISEÑOPuente -0.1987 0.2553 -0.778 0.4366
DISEÑOTramo de via 1.975 0.1329 14.86 5.816e-50
AÑO -0.1248 0.008372 -14.9 3.126e-50
MES -0.2886 0.1286 -2.244 0.02485
DIAJue 0.09345 0.03269 2.858 0.004261
DIALun 0.06194 0.03385 1.83 0.06726
DIAMar 0.1052 0.03364 3.128 0.001761
DIAMie 0.0962 0.03368 2.857 0.00428
DIASab 0.221 0.03174 6.964 3.297e-12
DIAVie 0.141 0.03214 4.389 1.138e-05
SEMANA 0.06468 0.02957 2.187 0.02872
DIA_MES -0.01006 0.004332 -2.322 0.02026
FERIA 0.06147 0.03019 2.036 0.04176
FESTIVO -0.1854 0.04415 -4.198 2.691e-05
  • El ECM para cada uno de los modelos propuestos se muestra a continuación.
ridge lasso poisson rp
5.877544 6.210015 5.066996 5.464242
5.898374 5.832197 4.626823 4.478111
8.670564 9.386586 5.281696 7.030165

Modelo para Choque

Aunque para la clase de Choque, los modelos Poisson y Arboles tienen un menor ECM, no los seleccionamos ya que son susceptibles a un sobreentrenamiento. Por tal motivo, se decidio seleccionar Ridge como modeo adecuado.

Para la estimación del modelo Ridge se minimiza la funcion \(RSS_{Ridge}\) e funcion de los parametros.

\[RSS_{Ridge}=\sum_{i=1}^n(y_i-f(x_i))^2+\sum_{i=1}^p\beta_j^2\]

donde:

\[f(x) = \beta_{0}+\beta_{1,k}\cdot GRAVEDAD_i+\beta_{2,m}\cdot DISEÑO_i+\\ \beta_3\cdot AÑO+\beta_4\cdot MES+\beta_{5,p}\cdot DIA+\beta_6\cdot SEMANA+\beta_7\cdot DIAMES+\beta_8\cdot FERIA+\beta_9\cdot FESTIVO\]

  • importancia de los parámetros del modelo.

Se observa que un gran número de parámetros son relevantes para el modelo. El \(\lambda=1.045628\) optímo se encuentra por medio de validación cruzada.

  • Valor de los coeficientes del modelo
s1
(Intercept) -284.9952594
GRAVEDADCon muertos 2.7472551
GRAVEDADSolo daños 5.9806899
DISEÑOGlorieta -5.4375785
DISEÑOInterseccion 1.3447691
DISEÑOLote o Predio -5.8460084
DISEÑOOtro -5.1184469
DISEÑOPaso Elevado -5.7315862
DISEÑOPuente -6.3898320
DISEÑOTramo de via 19.8555979
AÑO 0.1416731
MES 0.0377922
DIAJue 3.2199113
DIALun 3.4184527
DIAMar 3.7987749
DIAMie 3.2734039
DIASab 2.6654523
DIAVie 3.8282600
SEMANA 0.0063211
DIA_MES -0.0052129
FERIA 0.4794229
FESTIVO -5.6055681
  • La siguiente tabla muestra el ECM para cada uno de los modelos.
ridge lasso poisson rp
46.55747 54.76882 20.20910 20.48308
46.60063 49.62509 31.81894 33.47314
96.32260 86.17606 113.14570 113.82900

Modelo para Otro

En la clase de accidente otros la cual esán incluidas las categorías de volcamiento, incendio y otras causas se seleccionó como mejor modelo la regresión Ridge ya que el ECM de entreno y prueba son los mas cercanos.

El \(\lambda=0.4100249\) optimo se encontró por medio de validación cruzada. Los parámetros ajustados se presentan en la siguiente tabla.

s1
(Intercept) 358.9183641
GRAVEDADCon muertos 0.2168449
GRAVEDADSolo daños -8.4488274
DISEÑOGlorieta -2.8487992
DISEÑOInterseccion -2.5891139
DISEÑOLote o Predio -0.1606210
DISEÑOOtro -3.2405619
DISEÑOPaso Elevado -3.4002645
DISEÑOPuente -3.3877005
DISEÑOTramo de via 7.2796846
AÑO -0.1762888
MES -0.0032403
DIAJue 1.5396779
DIALun 1.3225764
DIAMar 1.2814960
DIAMie 1.3290905
DIASab 0.6987911
DIAVie 1.2770374
SEMANA -0.0019120
DIA_MES 0.0008154
FERIA 0.5809350
FESTIVO -1.3213356
  • La siguiente tabla muestra el ECM para cada uno de los modelos.
ridge lasso poisson rp
17.37564 18.65867 14.97200 14.55689
19.76217 21.69503 20.05122 17.30424
20.73500 23.47058 20.52860 20.81062

Agrupamiento.

Selección de variables.

Para el agrupamiento se utilizó la base de datos previamente depurada, a partir de esta se crearon varaiables asociadas a cada uno de los barrios tales como: accidentes con muertos, heridos, solo daños,atropello,caída de ocupante,choque, otro y la proporción de accientes ocurridos en días laborales (semana).

Creación de variables

Con heridos Con muertos Solo daños Atropello Caída Ocupante Choque Otro Semana
66 1 20 25 17 36 9 0.5977
198 1 433 18 19 542 53 0.8608
722 5 308 109 113 605 208 0.7121
818 5 347 153 185 568 264 0.7222
476 1 301 49 122 503 104 0.7776
224 3 147 63 30 216 65 0.7193

Análisis exploratorio

  • Resumen de las variables para el agrupamiento.
Con heridos Con muertos Solo daños Atropello Caída Ocupante Choque Otro Semana
Min. : 0.0 Min. : 0.00 Min. : 0.0 Min. : 0.00 Min. : 0.00 Min. : 0.0 Min. : 0.00 Min. :0.0000
1st Qu.: 165.5 1st Qu.: 1.00 1st Qu.: 86.0 1st Qu.: 28.00 1st Qu.: 24.25 1st Qu.: 149.0 1st Qu.: 41.25 1st Qu.:0.6917
Median : 359.0 Median : 2.00 Median : 200.5 Median : 63.00 Median : 58.00 Median : 334.0 Median : 92.50 Median :0.7349
Mean : 489.2 Mean : 4.77 Mean : 404.3 Mean : 85.12 Mean : 76.53 Mean : 609.6 Mean :127.01 Mean :0.7278
3rd Qu.: 674.8 3rd Qu.: 6.00 3rd Qu.: 461.0 3rd Qu.: 109.75 3rd Qu.:108.75 3rd Qu.: 750.8 3rd Qu.:177.50 3rd Qu.:0.7743
Max. :2492.0 Max. :29.00 Max. :3438.0 Max. :1007.00 Max. :411.00 Max. :4134.0 Max. :711.00 Max. :0.8608
  • Grafico de correlación.

Del anterior gráfico se observa que las variables de accidebtabilidad asociada a los barrios tiene una correlación positiva y alta. Ademaás todas las distribuciones son sesgadas a la derecha indicando que la mayoría de barrios tienen baja frecuecnia de casos.

Para agupar los barrios se usa el algoritmo de knn de la siguiente forma:

  • Paso 1: Se generan aleatoriamente \(k\) centroides,
  • Paso 2: Se asigna a cada individuo al centroide mas cercano, donde cada centroide define un grupo.
  • Paso 3: Se recalcula el centroide de cada grupo como el promedio de las observaciones del grupo.
  • Paso 4: se repite el paso 2 y 3 hasta que cumpla un número \(n\) de iteraciones.

A continuación se muestran los barrios, con la clasificación de los grupos en función del numero de centroides.

BARRIO K2 K3 K4 K5 K6 K7 K8 K9 K10
Aldea Pablo VI 2 3 4 4 1 7 2 6 3
Alejandría 2 3 3 5 3 2 1 3 2
Alejandro Echavarría 2 2 3 3 2 1 5 7 9
Alfonso López 2 2 3 3 2 1 5 7 9
Altamira 2 3 3 5 3 1 1 2 7
Altavista 2 3 4 4 1 2 8 5 4

Grafícas de dispersión entre variables clasificadas por el número de grupos.

  • Atropello vs Heridos

  • Semana vs Heridos

Criterio para escoger el \(K\).

De acuerdo al desempeño del agrupamiento en función de los k grupos, se decide que el k apropiado es \(k=4\). Ya que el paso de \(k=4\) a \(k=5\) la diferencia en la metrica no es muy relevante.

Análisis descriptivo de grupos.

Clasificación de grupos

  • Grupo 1: Accidentabilidad Alta Crítica:

A este grupo pertenecen 13 barrios de la ciudad de Medellín, los cuales presentan una alta accidentabilidad. Son los que presentan un mayor número en las clases y gravedad de accidentes, además son los que tiene una mayor porporción de accidentes durante la semana laboral.

  • Grupo 2: Accidentabilidad Alta Moderada:

A este grupo pertenecen 24 barrios de la ciudad de Medellín, los cuales presentan una alta accidentabilidad, pero en todas las variables los registros son menores a los registrados en el grupo de accidentabilidad alta critica.

  • Grupo 3: Accidentabilidad Moderada:

A este grupo pertenecen 79 barrios de la ciudad de Medellín. En comparacion con el grupo de accidentabilidad alta crítica, este grupo tiene en promedio el 33% del número de accidentes en heridos, 25% en muertes y 20% de solo daños. este mismo comportamiento se evidencia en Atropello, caída de ocupante, Choque y otros.

  • Grupo 4: Accidentabilidad Baja:

A este grupo pertenecen el 57% de los barrios, este gruopo se caracteeriza por tener un numero de accidentes bajo comparativamente con los otros. Sin embargo lo mas caracteristico es que en promedio, los muertos es de 1.7.

Resumen de los grupos.

Media en los grupos
grupo Con heridos Con muertos Solo daños Atropello Caída Ocupante Choque Otro Semana
Accidentabilidad Alta Crítica 1863.3846 21.307692 2232.5385 320.23077 255.23077 3084.1538 457.61538 0.8030615
Accidentabilidad Alta Moderada 1114.3750 12.166667 1206.2917 149.66667 152.33333 1752.7917 278.04167 0.7878458
Accidentabilidad Moderada 620.6582 5.683544 427.4557 99.77215 100.86076 689.6203 163.54430 0.7489722
Accidentabilidad Baja 208.4091 1.753247 113.0260 47.70130 37.14286 181.5260 56.81818 0.7012578
Mediana en los grupos
grupo Con heridos Con muertos Solo daños Atropello Caída Ocupante Choque Otro Semana
Accidentabilidad Alta Crítica 1766 22 2082.0 237.0 242.0 2885 409 0.80070
Accidentabilidad Alta Moderada 1056 12 1143.0 133.0 132.0 1677 260 0.78040
Accidentabilidad Moderada 635 5 433.0 92.0 94.0 663 164 0.74480
Accidentabilidad Baja 179 1 109.5 34.5 28.5 178 48 0.70875
Desviación estándar en los grupos
grupo Con heridos Con muertos Solo daños Atropello Caída Ocupante Choque Otro Semana
Accidentabilidad Alta Crítica 459.2544 6.459936 476.50649 231.50168 65.74592 617.0593 139.97591 0.0122450
Accidentabilidad Alta Moderada 353.0624 6.531973 293.31204 75.36443 78.09730 322.4147 118.18316 0.0326335
Accidentabilidad Moderada 180.9440 4.241263 153.89622 60.33495 48.34219 191.2671 57.44290 0.0402900
Accidentabilidad Baja 142.4176 1.816093 81.17261 39.61566 31.03433 123.1076 41.76646 0.1007089

Mapa.

A continuación se presentan el mapa con los barrios distinguidos por un color según el grupo:

  • Accidentabilidad Alta Crítica: color rojo
  • Accidentabilidad Alta Moderada: color Naranja
  • Accidentabilidad Moderada: color Amarillo
  • Accidentabilidad Baja: color Verde

Geograficamente se observa que los barrios que tienen una mayor accidenttabilidad se encuentran en el centro de la cuidad o son barrios de gran tamaño. Por otro lado, los barrios con menor accidentabilidad se encuentran en la periferia de la ciudad.

## OGR data source with driver: ESRI Shapefile 
## Source: "C:\Users\Vanegas\Documents\GitHub\TAE\Trabajo 1\Barrios de Medellín\Barrio_Vereda.shp", layer: "Barrio_Vereda"
## with 332 features
## It has 6 fields
## Integer64 fields read as strings:  OBJECTID SUBTIPO_BA

Referencias

[1] Secretaría de Movilidad. (2014). Incidentes viales, de http://medata.gov.co/dataset/incidentes-viales

[2] Autor anónimo. (2007).Expresiones Regulares : Conócelas y Piérdeles el miedo, de https://sg.com.mx/content/view/545

[3] Agiragil. (2016).03_ViviendasComunaBarrioVeredaEstrato_Certificada_17122015, de https://medellin.gov.co/irj/go/km/docs/pccdesign/SubportaldelCiudadano_2/PlandeDesarrollo_0_17/Publicaciones/Shared%20Content/sisben/03_ViviendasComunaBarrioVeredaEstrato_Certificada_17122015.pdf

[4] Selección de predictores: subset selection, ridge, lasso y reducción de dimensionalidad by Joaquín Amat Rodrigo, available under a Attribution 4.0 International (CC BY 4.0) at https://www.cienciadedatos.net/documentos/31_seleccion_de_predictores_subset_selection_ridge_lasso_dimension_reduction